Phân tích yếu tố xác nhận là gì? Các nghiên cứu khoa học
CFA là phương pháp thống kê kiểm định cấu trúc yếu tố tiềm ẩn thông qua so sánh hiệp phương sai biến quan sát với cấu trúc giả thuyết. Phương pháp này đánh giá tính hợp lệ và độ tin cậy của thang đo trong tâm lý và giáo dục qua các chỉ số độ phù hợp CFI, TLI và RMSEA.
Định nghĩa và mục đích của phân tích yếu tố xác nhận (CFA)
Phân tích yếu tố xác nhận (Confirmatory Factor Analysis – CFA) là phương pháp thống kê đa biến nhằm kiểm định cấu trúc yếu tố tiềm ẩn trong tập biến quan sát. Khác với phân tích yếu tố khám phá (Exploratory Factor Analysis – EFA), CFA yêu cầu người nghiên cứu xác định trước số lượng yếu tố, mối quan hệ giữa các yếu tố và biến quan sát, sau đó đánh giá mức độ phù hợp giữa mô hình giả thuyết và dữ liệu thực nghiệm.
Mục tiêu chính của CFA bao gồm:
- Kiểm định tính hợp lệ cấu trúc (construct validity), xác nhận rằng các biến quan sát thực sự đo lường đúng yếu tố tiềm ẩn.
- Đánh giá độ tin cậy cấu trúc (reliability) thông qua hệ số tải yếu tố (factor loadings) và sai số đo (measurement errors).
- So sánh các mô hình khác nhau về cấu trúc yếu tố bằng các chỉ số độ phù hợp (fit indices) như CFI, TLI, RMSEA.
CFA thường được ứng dụng trong các lĩnh vực tâm lý học, giáo dục, marketing và khoa học xã hội để kiểm định thang đo, đo lường các khái niệm trừu tượng và phát triển lý thuyết dựa trên dữ liệu quan sát thực tế.
Cơ sở lý thuyết
CFA nằm trong khuôn khổ Mô hình Phương trình Cấu trúc (Structural Equation Modeling – SEM), nơi yếu tố tiềm ẩn (latent variable) không quan sát trực tiếp mà được ước lượng thông qua các biến quan sát. Mô hình CFA thể hiện mối quan hệ tuyến tính giữa vector biến quan sát x và vector yếu tố tiềm ẩn ξ thông qua ma trận tải yếu tố Λ và sai số đo δ:
Trong đó:
- x là vector biến quan sát (observed variables).
- Λ là ma trận hệ số tải yếu tố (factor loading matrix), xác định mức độ liên hệ giữa biến quan sát và yếu tố tiềm ẩn.
- ξ là vector yếu tố tiềm ẩn (latent factors).
- δ là vector sai số đo (measurement errors), giả định không tương quan với nhau.
Cơ sở lý thuyết của CFA dựa trên việc tối ưu hàm mục tiêu (ví dụ Maximum Likelihood) để ước lượng các tham số Λ, phương sai yếu tố và sai số đo sao cho ma trận hiệp phương sai dự đoán của mô hình càng giống ma trận hiệp phương sai thực nghiệm càng tốt.
Đặc tả mô hình và giả thuyết
Quá trình thiết kế mô hình CFA bao gồm các bước chính:
- Xác định số yếu tố: dựa trên kiến thức lý thuyết hoặc nghiên cứu trước đó để quyết định có bao nhiêu yếu tố tiềm ẩn cần kiểm định.
- Phân bổ biến quan sát: gán mỗi biến quan sát cho một hoặc nhiều yếu tố, lập ma trận tải yếu tố Λ với các vị trí cố định bằng 0 hoặc ước lượng tự do.
- Thiết lập mối tương quan giữa yếu tố: quyết định yếu tố nào có thể tương quan (non-orthogonal) hoặc độc lập (orthogonal).
Giả thuyết cơ bản của mô hình CFA bao gồm:
- Mỗi biến quan sát chỉ tải lên một yếu tố (đường tải chéo = 0 trừ khi có lý do lý thuyết).
- Sai số đo của các biến quan sát không tương quan với nhau.
- Yếu tố tiềm ẩn tuân theo phân phối chuẩn đa biến.
Sau khi đặc tả mô hình, việc ước lượng tham số và kiểm định độ phù hợp được tiến hành để xác nhận hoặc bác bỏ giả thuyết về cấu trúc yếu tố.
Điều kiện nhận dạng (Identification)
Điều kiện nhận dạng (model identification) đảm bảo mô hình có thể ước lượng duy nhất các tham số. Mô hình CFA được coi là nhận dạng khi số thông tin quan sát đủ lớn để xác định số tham số ước lượng. Một số quy tắc cơ bản:
- Số biến quan sát tối thiểu cho mỗi yếu tố ≥ 3 để có thể ước lượng phương sai và hệ số tải.
- Tổng số phương trình (các phần tử ma trận hiệp phương sai quan sát) ≥ tổng số tham số cần ước lượng.
Phương pháp nhận dạng phổ biến:
Phương pháp | Mô tả |
---|---|
Khóa hệ số tải | Gán hệ số tải của một biến quan sát lên yếu tố bằng 1 để chuẩn hóa tỷ lệ. |
Khóa phương sai yếu tố | Gán phương sai của yếu tố tiềm ẩn bằng 1 để quy ước thang đo. |
Việc đảm bảo điều kiện nhận dạng giúp quá trình ước lượng tham số trở nên ổn định và kết quả mô hình có ý nghĩa thống kê.
Phương pháp ước lượng
Các phương pháp ước lượng tham số trong CFA bao gồm Maximum Likelihood (ML), Generalized Least Squares (GLS) và Weighted Least Squares (WLS). ML là phương pháp phổ biến nhất, ước lượng tham số bằng cách tối đa hóa hàm hợp lý, yêu cầu phân phối chuẩn đa biến của biến quan sát. GLS ít nhạy với vi phạm giả định phân phối chuẩn, còn WLS phù hợp với dữ liệu dạng thứ tự hoặc nhị phân.
Ưu nhược điểm và điều kiện áp dụng:
- ML: mạnh về tính thống nhất và tính hiệu quả; cần mẫu lớn và phân phối chuẩn.
- GLS: ít ảnh hưởng bởi ngoại lệ; dễ bị sai lệch khi mẫu nhỏ.
- WLS: tốt với biến ordinal; yêu cầu ma trận trọng số chính xác.
Phần mềm như lavaan (R) và Mplus cho phép lựa chọn phương pháp ước lượng và cấu hình các tùy chọn nâng cao để xử lý dữ liệu không hoàn hảo hoặc thiếu.
Các chỉ số độ phù hợp
Đánh giá độ phù hợp mô hình dựa trên nhiều chỉ số khác nhau, không chỉ dựa vào chi-square. Chi-square nhỏ cho thấy mô hình phù hợp, nhưng nhạy với kích thước mẫu lớn. Các chỉ số phổ biến khác bao gồm:
- CFI (Comparative Fit Index): giá trị ≥ 0.95 (tốt) hoặc ≥ 0.90 (chấp nhận được).
- TLI (Tucker–Lewis Index): ≥ 0.95 (tốt) hoặc ≥ 0.90 (chấp nhận được).
- RMSEA (Root Mean Square Error of Approximation): ≤ 0.05 (tốt), ≤ 0.08 (chấp nhận được).
- SRMR (Standardized Root Mean Square Residual): ≤ 0.08.
Bảng so sánh các mức độ đánh giá:
Chỉ số | Ngưỡng tốt | Ngưỡng chấp nhận |
---|---|---|
CFI/TLI | >= 0.95 | >= 0.90 |
RMSEA | <= 0.05 | <= 0.08 |
SRMR | <= 0.05 | <= 0.08 |
Kiểm định bất biến đo lường (Measurement Invariance)
Measurement Invariance đánh giá xem cấu trúc CFA có áp dụng chung cho các nhóm mẫu khác nhau hay không. Quá trình gồm ba bước: configural (cấu trúc chung), metric (đường tải yếu tố bằng nhau) và scalar (intercepts bằng nhau). Mỗi bước càng nghiêm ngặt, càng chứng tỏ thang đo ổn định qua nhóm.
Quy trình kiểm định:
- Configural Invariance: mô hình cơ bản giống nhau, không ràng buộc tham số.
- Metric Invariance: cố định tải yếu tố, so sánh ΔCFI ≤ 0.01.
- Scalar Invariance: cố định intercept, so sánh ΔRMSEA ≤ 0.015.
Mplus và lavaan cung cấp công cụ tự động kiểm định invariance, xuất báo cáo ΔCFI, ΔRMSEA và ΔSRMR để đánh giá sự thay đổi độ phù hợp.
Quy mô mẫu và năng lực kiểm định
CFA yêu cầu kích thước mẫu đủ lớn để đảm bảo độ ổn định và đáng tin cậy của tham số. Quy tắc chung khuyến nghị tối thiểu 200 mẫu hoặc tỷ lệ 10–20 quan sát cho mỗi tham số ước lượng. Mẫu nhỏ dễ dẫn đến kết quả lệch hoặc không hội tụ.
Phân tích power CFA có thể thực hiện qua mô phỏng Monte Carlo hoặc công cụ G*Power. Các yếu tố ảnh hưởng power gồm số yếu tố, hệ số tải trung bình và kích thước mẫu.
- Hệ số tải yếu tố cao (λ > 0.7) yêu cầu mẫu nhỏ hơn.
- Mô hình phức tạp (nhiều yếu tố) cần mẫu lớn hơn để đảm bảo hội tụ.
Công cụ phần mềm và triển khai
lavaan (R): miễn phí, cú pháp trực quan, hỗ trợ GLS, WLS và ML; tích hợp trực tiếp trong RStudio. Mplus: mạnh về phân tích đa nhóm và dữ liệu ordinal; trả phí nhưng giao diện dòng lệnh rõ ràng. AMOS (SPSS): giao diện đồ họa, thích hợp người mới; hạn chế với mô hình quá phức tạp.
Các bước triển khai chung:
- Chuẩn bị dữ liệu: xử lý missing, kiểm tra phân phối.
- Định nghĩa mô hình: cú pháp hoặc đồ họa.
- Chạy ước lượng và kiểm tra hội tụ.
- Đánh giá độ phù hợp và điều chỉnh mô hình nếu cần.
Ứng dụng và hạn chế
CFA ứng dụng rộng rãi trong tâm lý học để kiểm định thang đo tâm lý, trong marketing để đánh giá hành vi người tiêu dùng và trong giáo dục để xác minh cấu trúc bài kiểm tra. Nó cho phép kiểm chứng giả thuyết lý thuyết một cách định lượng.
Hạn chế của CFA bao gồm yêu cầu mẫu lớn, nhạy với dữ liệu lệch chuẩn và sai đặc tả mô hình. Khi mô hình sai, CFA có thể cho kết quả phù hợp giả tạo hoặc không hội tụ.
Tài liệu tham khảo
- Brown, T. A. (2015). Confirmatory Factor Analysis for Applied Research. Guilford Press.
- Jöreskog, K. G., & Sörbom, D. (1993). LISREL 8: Structural Equation Modeling with the SIMPLIS Command Language. Scientific Software.
- Kline, R. B. (2016). Principles and Practice of Structural Equation Modeling. Guilford Press.
- Schumacker, R. E., & Lomax, R. G. (2016). A Beginner’s Guide to Structural Equation Modeling. Routledge.
- Rosseel, Y. (2012). “lavaan: An R Package for Structural Equation Modeling.” Journal of Statistical Software, 48(2). https://lavaan.ugent.be
- Byrne, B. M. (2013). Structural Equation Modeling with Mplus. Routledge.
- Hoyle, R. H. (Ed.). (2012). Handbook of Structural Equation Modeling. Guilford Press.
- Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2018). Multivariate Data Analysis. Cengage.
Các bài báo, nghiên cứu, công bố khoa học về chủ đề phân tích yếu tố xác nhận:
Mục tiêu. Kiểm tra tính giá trị cấu trúc của phiên bản rút gọn của thang đánh giá trầm cảm, lo âu và căng thẳng (DASS-21), đặc biệt đánh giá xem căng thẳng theo chỉ số này có đồng nghĩa với tính cảm xúc tiêu cực (NA) hay không hay nó đại diện cho một cấu trúc liên quan nhưng khác biệt. Cung cấp dữ liệu chuẩn hóa cho dân số trưởng thành nói chung.
Thiết kế. Phân tích cắt ngang, tương quan và phân ...
...- 1